Credit scoring models are the primary instrument used by financial institutions to manage credit risk. The scarcity of research on behavioral scoring is due to the difficult data access. Financial institutions have to maintain the privacy and security of borrowers' information refrain them from collaborating in research initiatives. In this work, we present a methodology that allows us to evaluate the performance of models trained with synthetic data when they are applied to real-world data. Our results show that synthetic data quality is increasingly poor when the number of attributes increases. However, creditworthiness assessment models trained with synthetic data show a reduction of 3\% of AUC and 6\% of KS when compared with models trained with real data. These results have a significant impact since they encourage credit risk investigation from synthetic data, making it possible to maintain borrowers' privacy and to address problems that until now have been hampered by the availability of information.
translated by 谷歌翻译
LIDAR(“光检测和测距”或“激光成像,检测和测距”)技术可用于提供城市和农村景观的详细三维高度地图。迄今为止,空气传播的激光雷达成像主要被限制在环境和考古域中。然而,该数据的地理上粒度和开放源特性也为使用了地理人口类型数据的社会,组织和业务应用程序。具体地,处理该多维数据的复杂性迄今为止涉及其更广泛的采用。在本文中,我们提出了一系列方便的任务无关瓷砖高程嵌入来解决这一挑战,利用无监督深度学习的最新进展。通过预测大伦敦地区的小型地区,通过预测七个剥夺指数(2019年)来测试我们嵌入的潜力。这些索引涵盖了一系列社会经济结果,并作为可以应用嵌入的各种下游任务的代理。我们考虑不仅仅是独立于自己的数据的适用性,而且与人口统计特征结合使用,也可以作为辅助数据源,从而为嵌入品提供了一个现实用例。在尝试各种模型/嵌入配置中,我们发现我们最好的表现嵌入式导致单独使用标准人口统计特征的根本平衡(RMSE)改进高达21%。我们还展示了使用深度学习与K-Means集群相结合的嵌入管道的嵌入管道,产生相干瓷砖段,允许解释潜在的嵌入功能。
translated by 谷歌翻译
薄文件借款人是由于缺乏信用历史而不确定的信誉评估的客户;许多研究人员使用借款人的关系和交互网络以图形的形式作为替代数据源来解决这个问题。包含网络数据传统上由手工制作的特征工程制作,并且最近,图形神经网络已成为替代方案,但它仍然没有改善传统方法的性能。在这里,我们介绍一个框架来通过混合几个图形表示学习方法来改进信用评分模型:功能工程,图形嵌入和图形神经网络。我们堆叠了他们的产出以在这种方法中产生单一分数。我们使用独特的多源数据集进行了验证了此框架,该数据集具有与拉丁美洲国家的整个人口的关系和信用历史,将其应用于信用风险模型,应用和行为,针对个人和公司。我们的结果表明,图表表示学习方法应用作补充,并且这些方法不应被视为自给自足的方法,就像目前所做的那样。在AUC和KS方面,我们提升了统计表现,优于传统方法。在公司贷款中,在收益要高得多的情况下,它证实,评估了一个不道实的公司,不能仅考虑其特征。这些公司与业主,供应商,客户和其他公司互动的商业生态系统提供了新颖的知识,使金融机构能够提高信誉评估。我们的结果让我们知道何时以及哪些组使用图表数据以及对性能的影响。它们还展示了图形数据的巨大价值,主要是为了帮助公司的银行业务。
translated by 谷歌翻译
在本文中,我们研究了中途公司,即在市场资本化少于100亿美元的公开交易公司。在30年内使用美国中载公司的大型数据集,我们期望通过中期预测默认的概率术语结构,了解哪些数据源(即基本,市场或定价数据)对违约风险贡献最多。然而,现有方法通常要求来自不同时间段的数据首先聚合并转变为横截面特征,我们将问题框架作为多标签时间级分类问题。我们适应变压器模型,从自然语言处理领域发出的最先进的深度学习模型,以信用风险建模设置。我们还使用注意热图解释这些模型的预测。为了进一步优化模型,我们为多标签分类和新型多通道架构提供了一种自定义损耗功能,具有差异训练,使模型能够有效地使用所有输入数据。我们的结果表明,拟议的深度学习架构的卓越性能,导致传统模型的AUC(接收器运行特征曲线下的区域)提高了13%。我们还展示了如何使用特定于这些模型的福利方法生成不同数据源和时间关系的重要性排名。
translated by 谷歌翻译
Spacecraft pose estimation is a key task to enable space missions in which two spacecrafts must navigate around each other. Current state-of-the-art algorithms for pose estimation employ data-driven techniques. However, there is an absence of real training data for spacecraft imaged in space conditions due to the costs and difficulties associated with the space environment. This has motivated the introduction of 3D data simulators, solving the issue of data availability but introducing a large gap between the training (source) and test (target) domains. We explore a method that incorporates 3D structure into the spacecraft pose estimation pipeline to provide robustness to intensity domain shift and we present an algorithm for unsupervised domain adaptation with robust pseudo-labelling. Our solution has ranked second in the two categories of the 2021 Pose Estimation Challenge organised by the European Space Agency and the Stanford University, achieving the lowest average error over the two categories.
translated by 谷歌翻译
基于梯度提升决策树(GBDT)的机器学习(ML)算法在从医疗保健到金融的各种任务关键应用程序中的许多表格数据任务上仍然受到青睐。但是,GBDT算法并不能免于偏见和歧视性决策的风险。尽管GBDT的受欢迎程度和公平ML研究的迅速发展,但现有的经过处理的公平ML方法要么不适用GBDT,因此在大量的火车时间内开销,或者由于高级失衡的问题而不足。我们提出FairgBM,这是一个在公平限制下培训GBDT的学习框架,与无约束的LightGBM相比,对预测性能几乎没有影响。由于常见的公平指标是不可差异的,因此我们使用平滑的凸错误率代理采用``代理 - 拉格朗日''公式来实现基于梯度的优化。此外,与相关工作相比,我们的开源实施在训练时间中显示了一个数量级的加速顺序,这是一个关键方面,旨在促进现实世界实践者对FairgBM的广泛采用。
translated by 谷歌翻译
在图像分类的背景下,检测出分布(OOD)样本最近已成为感兴趣和积极研究的领域,以及与不确定性估计的主题,与之密切相关。在本文中,我们探讨了OOD细分的任务,该任务已被研究少于其分类对应物,并提出了其他挑战。细分是一个密集的预测任务,每个像素的模型结果都取决于其周围环境。接收领域和对上下文的依赖在区分不同类别以及相应地发现OOD实体的角色上发挥了作用。我们介绍了Moose,这是一种有效的策略,旨在利用语义分割模型中表示的各种上下文级别,并表明,即使是多尺度表示的简单聚合,也对OOD检测和不确定性估计也始终产生积极影响。
translated by 谷歌翻译
近年来,机器学习算法在多种高风险决策应用程序中变得无处不在。机器学习算法从数据中学习模式的无与伦比的能力也使它们能够融合嵌入的偏差。然后,一个有偏见的模型可以做出不成比例地损害社会中某些群体的决策 - 例如,他们获得金融服务的机会。对这个问题的认识引起了公平ML领域,该领域的重点是研究,衡量和缓解算法预测的不公平性,相对于一组受保护的群体(例如种族或性别)。但是,算法不公平的根本原因仍然难以捉摸,研究人员在指责ML算法或训练的数据之间进行了划分。在这项工作中,我们坚持认为,算法不公平源于数据中模型与偏见之间的相互作用,而不是源于其中任何一个的孤立贡献。为此,我们提出了一种分类法来表征数据偏差,并研究了一系列关于公平盲目的ML算法在不同数据偏见设置下表现出的公平性准确性权衡的假设。在我们的现实帐户开放欺诈用例中,我们发现每个设置都需要特定的权衡,从而影响了预期价值和差异的公平性 - 后者通常没有注意到。此外,我们展示了算法在准确性和公平性方面如何根据影响数据的偏差进行比较。最后,我们注意到,在特定的数据偏见条件下,简单的预处理干预措施可以成功平衡小组错误率,而在更复杂的设置中相同的技术失败。
translated by 谷歌翻译
对状态$ \ lvert \ psi \ rangle $的对称性是单一操作员,其中$ \ lvert \ psi \ rangle $是特征者。当$ \ lvert \ psi \ rangle $是黑盒甲骨文提供的未知状态时,该州的对称性可用于表征它,并且通常会降级有关$ \ lvert \ psi \ rangle $的许多所需信息。在本文中,我们开发了一种变性杂种量子式学习方案,以系统地探测$ \ lvert \ psi \ rangle $的对称性,而没有对状态的先验假设。此过程可用于同时学习各种对称性。为了避免重新学习已经知道的对称性,我们引入了一种具有经典深神经网的交互式协议。因此,经典的网络针对重复的发现进行了正规化,并允许我们的算法通过发现的所有可能对称性终止经验。我们的方案可以平均通过非本地交换门有效地实施;我们还提供了仅使用本地操作的效率较低的算法,这可能更适合当前的噪声量子设备。我们展示了我们对代表国家的算法。
translated by 谷歌翻译
在这项工作中,我们提出了一种开放式摄制对象检测方法,该方法基于图像映射对,学会了检测新颖对象类别以及给定的一组已知类别。这是一种两阶段的训练方法,首先使用位置引导的图像捕获匹配技术以弱监督的方式学习新颖和已知类别的类标签,第二个使用已知的类注释专用于对象检测任务的模型。我们表明,一个简单的语言模型比检测新对象的大型上下文化语言模型更适合。此外,我们引入了一种一致性调查技术,以更好地利用图像捕获对信息。我们的方法比较与现有的开放式检测方法相比,同时具有数据效率。源代码可从https://github.com/lmb-freiburg/locov获得。
translated by 谷歌翻译